Главная arrow книги arrow Копия Глава 20. Статистические методы обучения arrow Библиографические и исторические заметки
Библиографические и исторические заметки

В этой главе упоминались, но подробно не рассматривались рекуррентные сети. По-видимому, наиболее изученным классом рекуррентных сетей являются сети Хопфилда [674]. В них используются двунаправленные связи с симметричными весами (т.е. элементы с), все элементы являются одновременно входными и выходными, функция активации, д, представляет собой знаковую функцию, а уровни активации могут принимать только значения ±1. Сеть Хопфилда функционирует как ассоциативная память: после обучения сети на множестве примеров новый стимул вызывает установление в сети образа активации, соответствующего тому примеру в обучающем множестве, который наиболее близко напоминает этот новый стимул. Например, если обучающее множество состоит из набора фотографий и новым стимулом является небольшой фрагмент одной из фотографий, то уровни активации сети воспроизводят фотографию, из которой был взят этот фрагмент. Следует отметить, что оригинальные фотографии не хранятся отдельно в сети; каждый вес представляет собой результат частичного кодирования всех фотографий. Одним из наиболее интересных теоретических результатов является то, что сети Хопфилда могут надежно хранить вплоть до 0,138 N обучающих примеров, где N— количество элементов в сети.

В машинах Больцмана [657], [658] также используются симметричные веса, но предусматриваются скрытые элементы. Кроме того, в них применяется стохастическая функция активации, такая что вероятность появления на выходе 1 определяется некоторой функцией от общего взвешенного входа. Поэтому машины Больцмана подвержены переходам между состояниями, которые напоминают поиск с эмуляцией отжига (см. главу 4), применительно к конфигурации, которая наилучшим образом аппроксимирует обучающее множество. Как оказалось, машины Больцмана очень тесно связаны с частным случаем байесовских сетей, оценка параметров которых осуществляется с помощью алгоритма стохастического моделирования (см. раздел 14.5).

Первое приложение идей, лежащих в основе ядерных машин, было разработано Айзерманом и др. [11], но полная разработка теории этих машин под названием машин поддерживающих векторов была выполнена Владимиром Вапником и его коллегами [156], [1537]. Строгие введения в эту тематику приведены в [309] и [1364]; описание, более удобное для чтения, приведено в статье для журнала AI Magazine, написанной Кристианини и Шёлкопфом [308].